========================================================
Dataset: Este conjunto de dados contém 1.599 vinhos tintos com 11 variáveis de propriedades químicas do vinho. Ao menos 3 especialistas em vinhos avaliaram cada vinho, fornecendo uma nota entre 0 (muito ruim) e 10 (muito excelente). Mais informações serão encontradas aqui..
Questão Guia: Quais propriedades químicas influenciam a qualidade dos vinhos tintos?
dim(rw)
## [1] 1599 13
Contém 1599 registros com 13 variáveis
names(rw)
## [1] "X" "fixed.acidity" "volatile.acidity"
## [4] "citric.acid" "residual.sugar" "chlorides"
## [7] "free.sulfur.dioxide" "total.sulfur.dioxide" "density"
## [10] "pH" "sulphates" "alcohol"
## [13] "quality"
Descrição das variáveis:
str(rw)
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
summary(rw)
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
Vamos analisar a distribuição de cada variável, verificando se há alguma distribuição incomum ou se alguma variável precisa de alguma transformação ou limpeza.
ggplot(aes(x=fixed.acidity), data=rw) +
geom_histogram(binwidth = 0.5)
A distribuição tem um pequena cauda a direita. A relação da qualidade para esses valores acima de 14 não indica um aumento de qualidade, como mostra a tabela abaixo. Então esses valores serão considerados outliers e serão removidos. Tabela de qualidade: fixed.acidity >14
table(rw$quality,rw$fixed.acidity >14)
##
## FALSE TRUE
## 3 10 0
## 4 53 0
## 5 677 4
## 6 637 1
## 7 196 3
## 8 18 0
rw_clean <- subset(rw,rw$fixed.acidity<=14)
ggplot(aes(x=fixed.acidity), data=rw_clean) +
geom_histogram(binwidth = 0.5)
Removendo os outliers, a distribuição é normal.
ggplot(aes(x=volatile.acidity), data=rw_clean) +
geom_histogram()
Aparentemete esta variável possui alguns outliers. Não terá influência na qualidade se esses outliers forem removidos. Tabela de Qualidade: volatile.acidity >1.2
table(rw_clean$quality,rw_clean$volatile.acidity >1.2)
##
## FALSE TRUE
## 3 9 1
## 4 53 0
## 5 674 3
## 6 637 0
## 7 196 0
## 8 18 0
rw_clean <- subset(rw_clean, rw_clean$volatile.acidity <=1.2)
ggplot(aes(x=volatile.acidity), data=rw_clean) +
geom_histogram()
Agora a distribuição da variável é normal.
ggplot(aes(x=citric.acid), data=rw_clean) +
geom_histogram()
Tabela de Qualidade: citric.acid == 0 Existem 121 corrências para citric.acid == 0
table(rw_clean$quality,rw_clean$citric.acid ==0)
##
## FALSE TRUE
## 3 7 2
## 4 43 10
## 5 619 55
## 6 583 54
## 7 188 8
## 8 18 0
Tabela de Qualidade: citric.acid > 0.75
table(rw_clean$quality,rw_clean$citric.acid >0.75)
##
## FALSE TRUE
## 3 9 0
## 4 52 1
## 5 672 2
## 6 636 1
## 7 195 1
## 8 18 0
A melhor opção neste caso é remover os outliers > 0.75 que irá espalhar a distribuição.
rw_clean <- subset(rw_clean, rw_clean$citric.acid <= 0.75)
ggplot(aes(x=citric.acid), data=rw_clean) +
geom_histogram()
ggplot(aes(x=residual.sugar), data=rw_clean) +
geom_histogram()
Tabela de Qualidade: residual.sugar > 7
table(rw_clean$quality,rw_clean$residual.sugar > 7)
##
## FALSE TRUE
## 3 9 0
## 4 51 1
## 5 660 12
## 6 625 11
## 7 192 3
## 8 18 0
Estes outliers também serão removidos
rw_clean <- subset(rw_clean, rw_clean$residual.sugar <= 7)
ggplot(aes(x=residual.sugar), data=rw_clean) +
geom_histogram()
Apesar da retirada dos outliers. Ainda existe uma cauda a direita na distribuição.
p1 <- ggplot(aes(x=residual.sugar), data=rw_clean) +
geom_histogram() +
scale_x_log10() +
xlab("Residual Sugar (Scale log10)")
p2 <- ggplot(aes(x=residual.sugar), data=rw_clean) +
geom_histogram() +
scale_x_sqrt() +
xlab("Residual Sugar (Scale sqrt)")
grid.arrange(p1,p2, ncol=2)
Escalando esta variável na base logaritmica, melhora sua distribuição.
rw_clean$residual.sugar.log <- log(rw_clean$residual.sugar)
ggplot(aes(x=chlorides), data=rw_clean) +
geom_histogram()
Tabela Qualidade: chlorides > 0.2
table(rw_clean$quality,rw_clean$chlorides > 0.2)
##
## FALSE TRUE
## 3 8 1
## 4 51 0
## 5 643 17
## 6 610 15
## 7 190 2
## 8 18 0
p1 <- ggplot(aes(x=chlorides), data=rw_clean) +
geom_histogram() +
scale_x_log10() +
xlab("Residual Sugar (Scale log10)")
p2 <- ggplot(aes(x=chlorides), data=rw_clean) +
geom_histogram() +
scale_x_sqrt() +
xlab("Residual Sugar (Scale sqrt)")
grid.arrange(p1,p2, ncol=2)
Escalando para a base logaritmica, a distribuição fica mais normalizada
rw_clean$chlorides.log <- log(rw_clean$chlorides)
ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) +
geom_histogram()
Tabela Qualidade: chlorides > 0.2
table(rw_clean$quality,rw_clean$free.sulfur.dioxide > 60)
##
## FALSE TRUE
## 3 9 0
## 4 51 0
## 5 659 1
## 6 625 0
## 7 192 0
## 8 18 0
Removendo outlier
rw_clean <- subset(rw_clean, rw_clean$free.sulfur.dioxide <= 60)
p1 <- ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) +
geom_histogram() +
scale_x_log10() +
xlab("Free Sulfur Dioxide (Scale log10)")
p2 <- ggplot(aes(x=free.sulfur.dioxide), data=rw_clean) +
geom_histogram() +
scale_x_sqrt() +
xlab("Free Sulfur Dioxide (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)
Escalar na base logarítmica a variável para normalizar
rw_clean$free.sulfur.dioxide.log <- log(rw_clean$free.sulfur.dioxide)
ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) +
geom_histogram()
Tabela Qualidade: total.sulfur.dioxide > 0.2
table(rw_clean$quality,rw_clean$total.sulfur.dioxide > 160)
##
## FALSE TRUE
## 3 9 0
## 4 51 0
## 5 659 0
## 6 624 1
## 7 192 0
## 8 18 0
Removendo outlier
rw_clean <- subset(rw_clean, rw_clean$total.sulfur.dioxide <= 160)
p1 <- ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) +
geom_histogram() +
scale_x_log10() +
xlab("Total Sulfur Dioxide (Scale log10)")
p2 <- ggplot(aes(x=total.sulfur.dioxide), data=rw_clean) +
geom_histogram() +
scale_x_sqrt() +
xlab("Total Sulfur Dioxide (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)
Escalar na base logarítmica a variável para normalizar
rw_clean$total.sulfur.dioxide.log <- log(rw_clean$total.sulfur.dioxide)
ggplot(aes(x=density), data=rw_clean) +
geom_histogram()
Variável com distribuição normal
ggplot(aes(x=pH), data=rw_clean) +
geom_histogram()
Variável com distribuição normal
ggplot(aes(x=sulphates), data=rw_clean) +
geom_histogram()
Tabela Qualidade: sulphates > 1.5
table(rw_clean$quality,rw_clean$sulphates > 1.5)
##
## FALSE TRUE
## 3 9 0
## 4 51 0
## 5 655 4
## 6 621 3
## 7 192 0
## 8 18 0
Removendo outlier. Eles tem baixo nivel de qualidade e pouco influenciarão de remove-los
rw_clean <- subset(rw_clean, rw_clean$sulphates <= 1.5)
p1 <- ggplot(aes(x=sulphates), data=rw_clean) +
geom_histogram() +
scale_x_log10() +
xlab("sulphates (Scale log10)")
p2 <- ggplot(aes(x=sulphates), data=rw_clean) +
geom_histogram() +
scale_x_sqrt() +
xlab("sulphates (Scale sqrt)")
grid.arrange(p1,p2, ncol=1)
Escalar na base logarítmica a variável para normalizar
rw_clean$sulphates.log <- log(rw_clean$sulphates)
ggplot(aes(x=alcohol), data=rw_clean) +
geom_histogram()
Tabela Qualidade: alcohol < 9
table(rw_clean$quality,rw_clean$alcohol < 9)
##
## FALSE TRUE
## 3 8 1
## 4 51 0
## 5 654 1
## 6 619 2
## 7 192 0
## 8 18 0
Nenhuma mudanca nesta variável é significativa.
Variável chave do nosso dataset. Melhor não mudar.
ggplot(aes(x=quality), data=rw_clean) +
geom_histogram()
cor(rw_clean)
## X fixed.acidity volatile.acidity
## X 1.00000000 -0.27065157 -0.005503430
## fixed.acidity -0.27065157 1.00000000 -0.275317204
## volatile.acidity -0.00550343 -0.27531720 1.000000000
## citric.acid -0.15730174 0.68612138 -0.563717323
## residual.sugar -0.10904758 0.16927037 0.050704201
## chlorides -0.11995981 0.10205426 0.061055339
## free.sulfur.dioxide 0.08563698 -0.15016156 -0.006776397
## total.sulfur.dioxide -0.12974613 -0.10394187 0.105338439
## density -0.38954807 0.66723764 0.021150147
## pH 0.12677683 -0.69025704 0.232476475
## sulphates -0.09142059 0.19373447 -0.291890116
## alcohol 0.25460581 -0.07710964 -0.212127190
## quality 0.06974852 0.12389357 -0.382785120
## residual.sugar.log -0.12204139 0.20163527 0.053194399
## chlorides.log -0.16604614 0.18093766 0.100981416
## free.sulfur.dioxide.log 0.06980623 -0.18032963 0.030705867
## total.sulfur.dioxide.log -0.12770141 -0.11292677 0.096705495
## sulphates.log -0.08842357 0.19943758 -0.311848564
## citric.acid residual.sugar chlorides
## X -0.15730174 -0.10904758 -0.11995981
## fixed.acidity 0.68612138 0.16927037 0.10205426
## volatile.acidity -0.56371732 0.05070420 0.06105534
## citric.acid 1.00000000 0.15530921 0.17987594
## residual.sugar 0.15530921 1.00000000 0.01998337
## chlorides 0.17987594 0.01998337 1.00000000
## free.sulfur.dioxide -0.07665115 0.02718331 -0.04063681
## total.sulfur.dioxide 0.01080430 0.10629537 0.04197609
## density 0.36495716 0.35516969 0.19677713
## pH -0.53017859 -0.06514375 -0.24610380
## sulphates 0.32668144 0.05750347 0.31701954
## alcohol 0.10752299 0.11495917 -0.22075800
## quality 0.22848560 0.03523646 -0.11541766
## residual.sugar.log 0.16635280 0.97029785 0.02338280
## chlorides.log 0.16708762 0.09393694 0.91140611
## free.sulfur.dioxide.log -0.10541013 0.00379018 -0.03359133
## total.sulfur.dioxide.log -0.02299089 0.07210172 0.04611665
## sulphates.log 0.33180148 0.06381002 0.26831344
## free.sulfur.dioxide total.sulfur.dioxide
## X 0.085636977 -0.129746132
## fixed.acidity -0.150161556 -0.103941868
## volatile.acidity -0.006776397 0.105338439
## citric.acid -0.076651146 0.010804297
## residual.sugar 0.027183314 0.106295366
## chlorides -0.040636811 0.041976089
## free.sulfur.dioxide 1.000000000 0.663395856
## total.sulfur.dioxide 0.663395856 1.000000000
## density -0.060483411 0.089651862
## pH 0.093213977 -0.030493048
## sulphates 0.052524607 0.008205888
## alcohol -0.054187532 -0.233754883
## quality -0.050103084 -0.211970197
## residual.sugar.log 0.033666530 0.118842006
## chlorides.log -0.045644729 0.061837186
## free.sulfur.dioxide.log 0.934368674 0.673895533
## total.sulfur.dioxide.log 0.712768430 0.933039953
## sulphates.log 0.052830587 -0.003227329
## density pH sulphates alcohol
## X -0.38954807 0.12677683 -0.091420595 0.25460581
## fixed.acidity 0.66723764 -0.69025704 0.193734467 -0.07710964
## volatile.acidity 0.02115015 0.23247647 -0.291890116 -0.21212719
## citric.acid 0.36495716 -0.53017859 0.326681445 0.10752299
## residual.sugar 0.35516969 -0.06514375 0.057503468 0.11495917
## chlorides 0.19677713 -0.24610380 0.317019540 -0.22075800
## free.sulfur.dioxide -0.06048341 0.09321398 0.052524607 -0.05418753
## total.sulfur.dioxide 0.08965186 -0.03049305 0.008205888 -0.23375488
## density 1.00000000 -0.32810581 0.151029571 -0.51235448
## pH -0.32810581 1.00000000 -0.124656196 0.21224129
## sulphates 0.15102957 -0.12465620 1.000000000 0.14613063
## alcohol -0.51235448 0.21224129 0.146130628 1.00000000
## quality -0.18391998 -0.05879047 0.308507858 0.49206146
## residual.sugar.log 0.39855917 -0.06872229 0.050742277 0.11329692
## chlorides.log 0.34949211 -0.27055018 0.229052131 -0.30230546
## free.sulfur.dioxide.log -0.06159016 0.11892756 0.043449519 -0.07342268
## total.sulfur.dioxide.log 0.10852873 0.01283462 0.040647982 -0.24027937
## sulphates.log 0.15963306 -0.09334160 0.987067781 0.17337623
## quality residual.sugar.log chlorides.log
## X 0.06974852 -0.12204139 -0.16604614
## fixed.acidity 0.12389357 0.20163527 0.18093766
## volatile.acidity -0.38278512 0.05319440 0.10098142
## citric.acid 0.22848560 0.16635280 0.16708762
## residual.sugar 0.03523646 0.97029785 0.09393694
## chlorides -0.11541766 0.02338280 0.91140611
## free.sulfur.dioxide -0.05010308 0.03366653 -0.04564473
## total.sulfur.dioxide -0.21197020 0.11884201 0.06183719
## density -0.18391998 0.39855917 0.34949211
## pH -0.05879047 -0.06872229 -0.27055018
## sulphates 0.30850786 0.05074228 0.22905213
## alcohol 0.49206146 0.11329692 -0.30230546
## quality 1.00000000 0.03640052 -0.16511563
## residual.sugar.log 0.03640052 1.00000000 0.11352134
## chlorides.log -0.16511563 0.11352134 1.00000000
## free.sulfur.dioxide.log -0.05241825 0.01931625 -0.03916002
## total.sulfur.dioxide.log -0.18173507 0.09437606 0.06574406
## sulphates.log 0.34139250 0.06028516 0.19971250
## free.sulfur.dioxide.log total.sulfur.dioxide.log
## X 0.06980623 -0.12770141
## fixed.acidity -0.18032963 -0.11292677
## volatile.acidity 0.03070587 0.09670549
## citric.acid -0.10541013 -0.02299089
## residual.sugar 0.00379018 0.07210172
## chlorides -0.03359133 0.04611665
## free.sulfur.dioxide 0.93436867 0.71276843
## total.sulfur.dioxide 0.67389553 0.93303995
## density -0.06159016 0.10852873
## pH 0.11892756 0.01283462
## sulphates 0.04344952 0.04064798
## alcohol -0.07342268 -0.24027937
## quality -0.05241825 -0.18173507
## residual.sugar.log 0.01931625 0.09437606
## chlorides.log -0.03916002 0.06574406
## free.sulfur.dioxide.log 1.00000000 0.77950999
## total.sulfur.dioxide.log 0.77950999 1.00000000
## sulphates.log 0.04731505 0.03433442
## sulphates.log
## X -0.088423571
## fixed.acidity 0.199437582
## volatile.acidity -0.311848564
## citric.acid 0.331801483
## residual.sugar 0.063810020
## chlorides 0.268313443
## free.sulfur.dioxide 0.052830587
## total.sulfur.dioxide -0.003227329
## density 0.159633065
## pH -0.093341603
## sulphates 0.987067781
## alcohol 0.173376226
## quality 0.341392504
## residual.sugar.log 0.060285164
## chlorides.log 0.199712504
## free.sulfur.dioxide.log 0.047315053
## total.sulfur.dioxide.log 0.034334417
## sulphates.log 1.000000000
0.3-0.5 = Correlção baixa 0.5-0.7 = Correlção moderada 0.7+ = Correlção alta
Correlação da Qualidade com as demais variáveis
Outras correlações que valem ser destacadas
r <- cor(rw_clean)
r[r<=0.3 & r >= -0.3] <- ""
r
## X fixed.acidity
## X "1" ""
## fixed.acidity "" "1"
## volatile.acidity "" ""
## citric.acid "" "0.686121375845558"
## residual.sugar "" ""
## chlorides "" ""
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "-0.38954807171065" "0.667237643356228"
## pH "" "-0.690257037912984"
## sulphates "" ""
## alcohol "" ""
## quality "" ""
## residual.sugar.log "" ""
## chlorides.log "" ""
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "" ""
## volatile.acidity citric.acid
## X "" ""
## fixed.acidity "" "0.686121375845558"
## volatile.acidity "1" "-0.563717323200055"
## citric.acid "-0.563717323200055" "1"
## residual.sugar "" ""
## chlorides "" ""
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "" "0.364957156376029"
## pH "" "-0.530178585139005"
## sulphates "" "0.326681444678814"
## alcohol "" ""
## quality "-0.382785119568119" ""
## residual.sugar.log "" ""
## chlorides.log "" ""
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "-0.311848564006785" "0.331801483373833"
## residual.sugar chlorides
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "" ""
## citric.acid "" ""
## residual.sugar "1" ""
## chlorides "" "1"
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "0.355169687372301" ""
## pH "" ""
## sulphates "" "0.317019539998429"
## alcohol "" ""
## quality "" ""
## residual.sugar.log "0.970297845101139" ""
## chlorides.log "" "0.911406107167814"
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "" ""
## free.sulfur.dioxide total.sulfur.dioxide
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "" ""
## citric.acid "" ""
## residual.sugar "" ""
## chlorides "" ""
## free.sulfur.dioxide "1" "0.663395856042797"
## total.sulfur.dioxide "0.663395856042797" "1"
## density "" ""
## pH "" ""
## sulphates "" ""
## alcohol "" ""
## quality "" ""
## residual.sugar.log "" ""
## chlorides.log "" ""
## free.sulfur.dioxide.log "0.934368674113432" "0.673895533346571"
## total.sulfur.dioxide.log "0.712768430128769" "0.933039952540035"
## sulphates.log "" ""
## density pH
## X "-0.38954807171065" ""
## fixed.acidity "0.667237643356228" "-0.690257037912984"
## volatile.acidity "" ""
## citric.acid "0.364957156376029" "-0.530178585139005"
## residual.sugar "0.355169687372301" ""
## chlorides "" ""
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "1" "-0.328105811040359"
## pH "-0.328105811040359" "1"
## sulphates "" ""
## alcohol "-0.512354480331928" ""
## quality "" ""
## residual.sugar.log "0.398559170192909" ""
## chlorides.log "0.349492111358303" ""
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "" ""
## sulphates alcohol
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "" ""
## citric.acid "0.326681444678814" ""
## residual.sugar "" ""
## chlorides "0.317019539998429" ""
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "" "-0.512354480331928"
## pH "" ""
## sulphates "1" ""
## alcohol "" "1"
## quality "0.308507858491" "0.492061464379538"
## residual.sugar.log "" ""
## chlorides.log "" "-0.302305462868869"
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "0.987067780613142" ""
## quality residual.sugar.log
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "-0.382785119568119" ""
## citric.acid "" ""
## residual.sugar "" "0.970297845101139"
## chlorides "" ""
## free.sulfur.dioxide "" ""
## total.sulfur.dioxide "" ""
## density "" "0.398559170192909"
## pH "" ""
## sulphates "0.308507858491" ""
## alcohol "0.492061464379538" ""
## quality "1" ""
## residual.sugar.log "" "1"
## chlorides.log "" ""
## free.sulfur.dioxide.log "" ""
## total.sulfur.dioxide.log "" ""
## sulphates.log "0.341392504153981" ""
## chlorides.log free.sulfur.dioxide.log
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "" ""
## citric.acid "" ""
## residual.sugar "" ""
## chlorides "0.911406107167814" ""
## free.sulfur.dioxide "" "0.934368674113432"
## total.sulfur.dioxide "" "0.673895533346571"
## density "0.349492111358303" ""
## pH "" ""
## sulphates "" ""
## alcohol "-0.302305462868869" ""
## quality "" ""
## residual.sugar.log "" ""
## chlorides.log "1" ""
## free.sulfur.dioxide.log "" "1"
## total.sulfur.dioxide.log "" "0.779509991317779"
## sulphates.log "" ""
## total.sulfur.dioxide.log sulphates.log
## X "" ""
## fixed.acidity "" ""
## volatile.acidity "" "-0.311848564006785"
## citric.acid "" "0.331801483373833"
## residual.sugar "" ""
## chlorides "" ""
## free.sulfur.dioxide "0.712768430128769" ""
## total.sulfur.dioxide "0.933039952540035" ""
## density "" ""
## pH "" ""
## sulphates "" "0.987067780613142"
## alcohol "" ""
## quality "" "0.341392504153981"
## residual.sugar.log "" ""
## chlorides.log "" ""
## free.sulfur.dioxide.log "0.779509991317779" ""
## total.sulfur.dioxide.log "1" ""
## sulphates.log "" "1"
Conclusão 1. Variáveis que foram escaladas, vão ser usadas ao invés das variáveis originais, caso sua correlação for significante. 2. A variável residual.sugar.log , será descartada da análise pois só tem uma correlação pequena com density. Deve ser ao fato que vinhos tintos não tendem a serem doces. 3. A análise será iniciada pelas 3 variáveis que mais críicas em relação a qualidade: volatile.acidity, alcohol, sulphates.log
A tendência do vinho ter maior qualidade quando o teor alcoólico aumenta.
A tendência do vinho ter maior qualidade quando a acidez volátil diminui.
Há um tendencia do vinho ser de melhor qualidade quando os sulfatos aumentam.
Mas, em cada variável estudada acima, ainda há uma grande variância em relação a qualidade. Vamos tentar descobrir o por quê agora.
Vimos nesses gráficos acima como tende a qualidade em relação a distribuição das ouras variáveis: +alcool & +sulfatos = +qualidade +alcool & - acidez volátil = +qualidade +sulfatos & -acidez volátil = +qualidade
Dividi os sulfatos e a acidez volátil que 4 grupos (min-Q1, Q1-Mediana, Mediana-Q3, Q3-Max), para ver como se comportam em relação a distribuição entre alcool x qualidade. Percebemos que quanto maior o teor alcoólico e a qualiade, maiores são os valores dos sulfatos e menores o da acidez volátil.
Gráfico indica a contagem da nota(Qualidade) dos 1599 vinhos contidos no dataset. Vimos que, apesar dos valores possíveis das notas serem de 0 a 10, nenhum deles possuiu notas abaixo de 3 ou acima de 8.
Gráfico mostra a distribuição entre o teor alcoólico e qualidade. O gráfico também plota uma linha de tendência entre esses duas variáveis. Resumindo, Quando o teor alcoólico aumenta o vinho tende a ter melhor qualidade. Isso confirma uma hipótese que tinha que os vinhos com maior teor alcoólico tinha melhor qualidade.
Gráfico que mostra a distribuição da acidez volátil e Sulfatos em relação a Qualidade do vinho. Gráfico indica que quanto menor a acidez e maior q quantidade d esulfatos, o vinho tende ter uma melhor qualidade. Este gráfico veio complementar minha hipótese pessoal, que comentei no gráfico anterior. Obviamente, a qualidade do vinho não se faz só pelo teor alcoólico, mas esta análise me mostrou duas outros pontos que pode indicar uma qualidade melhor do vinho.
Um dos motivos que eu escolhi este dataset sobre vinhos, dentre vários outros, foi que virei um apreciador de vinho a pouco tempo. A principal motivação esclarecer uma hipótese que tinha sobre vinhos que era: Vinhos com teor alcoólico maior tendem a ser melhores. E esta análise sobre este dataset acabou confirmando a hipótese.
Minhas principais dificuldades inicialmente foram duas: 1. Conhecimento sob a linguagem R: Para fazer esta análise tive que pesquisar bastante no google e nos materiais do curso para conesguir fazer o que queria 2. Por onde começar a EDA: inicialmente, fiquei perdido, não sabia dar um ponto de partida. Mas acabei seguindo a linha de raciocínio da EDA sobre o dataset dos diamantes feito por uma pessoa do facebook, da aula 9 e acabei conseguindo realizar esta minha EDA.